图片url解析正确,但爬虫无法下载图片

您所在的位置:网站首页 爬虫 下载图片 图片url解析正确,但爬虫无法下载图片

图片url解析正确,但爬虫无法下载图片

2023-12-04 03:55| 来源: 网络整理| 查看: 265

图片url解析正确,但爬虫无法下载图片 爬虫错误debug解注释DOWNLOADER_MIDDLEWARESHTTP status code is not handled or not allowed使用xpath复制的网页元素路径却下载不到图片网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403网页图片设置了在显示图片前先显示一个动态图 参考博客链接:github爬虫代码

爬虫错误debug 解注释DOWNLOADER_MIDDLEWARES # Enable or disable downloader middlewares # See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html DOWNLOADER_MIDDLEWARES = { 'imgspider.middlewares.ImgspiderDownloaderMiddleware': 543, }

如果你不是使用scrapy startproject yourspider这个命令创建项目的话,项目中可能不会有middlewares.py文件,必须有这个文件再在settings.py中进行设置才生效 如果你使用pip install安装可能漏装Pillow这个库记得补上

HTTP status code is not handled or not allowed

注意查看网页地址是否正确 如下com和article中间多了/

INFO: Ignoring response : HTTP status code is not handled or not allowed 使用xpath复制的网页元素路径却下载不到图片

这种情况有多种 目前我只遇到两种

网页设置了防盗链 ALC 打开图片地址再刷新时报Forbidden 403

这种情况你得研究反反爬虫的技术了 网上一般说是VPN+代理IP

网页图片设置了在显示图片前先显示一个动态图

这种情况打开网页的源代码会看到 src属性指定的是一张动态图片,而data-src指定才是真正的图片地址,使用右键检查src指定的也是图片地址但爬到的是gif图片,把属性改成data-src就解决了 src指定的是一张gif图片

参考博客链接:

https://blog.csdn.net/Wfarmer/article/details/104990791

github爬虫代码

[email protected]:YuanJZhang/Imgspider.git



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3